CVM-Net 안내서

1. 부: 서론 - 교차 시점 지리적 위치 추정의 서막

1.1 문제 정의: 지상과 하늘의 시각적 간극

교차 시점 지리적 위치 추정(Cross-View Geo-Localization, CVGL)은 주어진 지상(ground-view) 또는 드론(drone-view) 이미지를 참조용 위성(satellite-view) 이미지 데이터베이스와 매칭하여 지리적 위치를 특정하는 기술이다.1 이 기술은 GPS와 같은 위성 항법 시스템(GNSS) 신호가 약하거나 수신되지 않는 도심 협곡, 숲, 실내 등의 환경에서 필수적인 대안 위치 파악 기술로 주목받는다.2

CVGL의 근본적인 기술적 난제는 지상과 위성이라는 두 이미지 도메인 간의 극심한 시점(viewpoint) 차이에서 비롯된다.3 지상 이미지는 수평적 원근감을 가지며 건물이나 나무 등에 의한 폐색(occlusion)이 빈번하게 발생하는 반면, 위성 이미지는 수직 조감도(bird’s-eye view) 시점으로 장면의 구조적 배치를 보여준다. 이러한 본질적인 차이는 조명, 계절, 촬영 시간의 변화와 맞물려 두 이미지 간의 시각적 불일치를 증폭시킨다.5

이러한 어려움에도 불구하고 CVGL 연구가 활성화된 배경에는 데이터의 가용성이라는 현실적인 문제가 자리 잡고 있다. 초기 위치 추정 연구들은 주로 지상에서 촬영된 이미지 데이터베이스에 의존했으나, 이러한 데이터는 대부분 크라우드소싱 방식으로 수집되어 유명 관광지에 편향되어 있고 전반적인 지역 커버리지가 불완전하다는 명백한 한계를 가졌다.3 이로 인해 참조 이미지가 없는 지역에서는 위치 추정이 실패하는 경우가 많았다. 반면, 위성 이미지는 지구 전체를 조밀하고 균일하게 커버하므로 훨씬 안정적이고 포괄적인 참조 소스를 제공한다.3 아이러니하게도, 데이터 커버리지 문제를 해결하기 위해 채택한 위성 이미지가 ’극심한 시점 차이’라는 더 근본적인 컴퓨터 비전의 난제를 낳는 역설적인 상황이 발생했다. 바로 이 지점에서 CVM-Net과 같은 혁신적인 아키텍처의 필요성이 대두되었다.

1.2 초기 접근법의 명백한 한계

딥러닝 시대 이전의 CVGL 연구는 주로 수동 특징(handcrafted features) 기반의 매칭에 의존했다. SIFT(Scale-Invariant Feature Transform), SURF(Speeded Up Robust Features), HOG(Histogram of Oriented Gradients)와 같은 전통적인 특징 기술자들은 이미지의 회전이나 크기 변화에 어느 정도 강건성을 보였지만, 지상-항공 뷰 사이의 극심한 기하학적, 외형적 변환을 감당하기에는 역부족이었다.2

이후 합성곱 신경망(CNN)을 활용한 딥러닝 기반 접근법이 등장하며 가능성을 열었지만, 초기 연구들은 시점 차이를 극복하기 위해 비효율적인 방식을 사용했다. 예를 들어, 지상 이미지의 방향을 추정하기 위한 별도의 네트워크 분기를 추가하거나, 위성 이미지를 여러 각도로 회전시켜 다수의 후보를 생성한 뒤 가장 일치하는 각도를 찾는 방식은 상당한 계산 오버헤드를 유발했다.3 이러한 복잡성은 대규모 데이터셋의 학습과 실시간 추론을 어렵게 만드는 제약으로 작용했으며, 시점 차이 문제를 네트워크 아키텍처 자체에 내재화하여 해결할 필요성을 시사했다.

2. 부: CVM-Net 아키텍처 해부

2.1 설계 철학: 샴 네트워크 기반의 메트릭 러닝

CVM-Net은 극심한 시점 차이를 극복하기 위해, 이미지 검색 및 매칭 태스크에서 그 효과가 입증된 샴(Siamese) 네트워크와 유사한 아키텍처를 채택했다.3 이 구조의 핵심 철학은 메트릭 러닝(metric learning)이다. 즉, 서로 다른 두 도메인(지상, 위성)의 이미지를 각각 별도의 네트워크 브랜치에 통과시켜, 두 이미지를 직접 비교하는 대신 저차원의 공통 임베딩 공간(common embedding space)으로 매핑한다. 이 공간상에서 두 이미지 임베딩 간의 유클리드 거리가 가까울수록 두 이미지는 동일한 장소를 촬영한 것으로 판단한다.3

2.2 구성 요소 상세 분석

CVM-Net의 각 브랜치는 지역 특징 추출기와 전역 디스크립터 집계기라는 두 가지 핵심 모듈로 구성된다.

2.2.1 지역 특징 추출기 (Local Feature Extractor)

네트워크의 초기 단계에서는 이미지로부터 의미 있는 지역 특징(local feature)들을 추출한다. 이를 위해 AlexNet이나 VGG16과 같이 이미지 분류 문제에서 사전 훈련된 CNN의 합성곱 레이어 부분을 백본(backbone)으로 사용한다.3 지상 이미지

I_g와 위성 이미지 I_s는 각각의 브랜치를 통과하여 고차원의 지역 특징 맵 U_gU_s를 생성한다. 이 특징 맵의 각 벡터는 원본 이미지의 특정 영역에 대한 시각적 정보를 압축적으로 담고 있다.

2.2.2 전역 디스크립터 집계기 (Global Descriptor Aggregator - NetVLAD)

추출된 지역 특징 맵은 NetVLAD 레이어로 전달되어 이미지 전체를 대표하는 단일 벡터, 즉 전역 디스크립터(global descriptor)로 집계된다. NetVLAD는 전통적인 이미지 검색 기법인 VLAD(Vector of Locally Aggregated Descriptors)를 미분 가능하도록 설계한 딥러닝 레이어다.3

NetVLAD는 학습 가능한 K개의 클러스터 중심(centroids)을 가지고 있다. 입력된 각 지역 특징 벡터에 대해, 가장 가까운 클러스터 중심과의 차이(잔차, residual)를 계산하고, 이 잔차들을 모든 클러스터에 대해 가중 합산하여 최종 전역 디스크립터를 생성한다. 이 과정은 이미지 내 객체의 위치나 회전에 덜 민감한 표현을 학습하게 하여, 결과적으로 시점 변화에 매우 강건한 디스크립터를 만들어낸다.3 이는 전통적인 Bag-of-Visual-Words 개념을 학습 가능한 방식으로 확장한 것으로 볼 수 있다.3

2.3 아키텍처 변형: CVM-Net-I vs. CVM-Net-II

CVM-Net은 NetVLAD 레이어의 가중치 공유 여부에 따라 두 가지 변형된 아키텍처를 제안했다.3

  • CVM-Net-I (Independent NetVLADs): 지상 브랜치와 위성 브랜치가 각각 독립적인 파라미터를 갖는 별도의 NetVLAD 레이어를 사용한다. 이는 각 뷰의 고유한 시각적 특성에 맞는 최적의 클러스터 중심(일종의 ‘시각적 단어 사전’)을 독립적으로 학습할 수 있도록 한다.

  • CVM-Net-II (Shared-Weight NetVLAD): 두 브랜치가 NetVLAD 레이어의 가중치(클러스터 중심 등)를 공유한다. 이는 두 이질적인 뷰의 특징을 보다 강력하게 동일한 의미 공간으로 매핑하려는 시도다. 이를 위해 NetVLAD 입력 전에 추가적인 완전 연결(FC) 레이어를 두어 각 뷰의 특징을 공통 공간으로 변환하는 단계를 거친다.

항목CVM-Net-I (독립 NetVLADs)CVM-Net-II (공유 가중치 NetVLAD)
백본 CNN독립적 또는 공유 가능독립적 또는 공유 가능
특징 변환없음독립/공유 FC 레이어를 통해 특징 변환
NetVLAD 레이어2개 (독립적 파라미터 \Theta_{G_s}, \Theta_{G_g})1개 (공유 파라미터 \Theta_G)
전역 디스크립터v_s = f_G(U_s; \Theta_{G_s})
v_g = f_G(U_g; \Theta_{G_g})
v_s = f_G(U'_s; \Theta_G)
v_g = f_G(U'_g; \Theta_G)

실험 결과, 독립적인 NetVLAD를 사용한 CVM-Net-I이 가중치를 공유한 CVM-Net-II보다 일관되게 더 나은 성능을 보였다.3 이는 일반적인 샴 네트워크에서 가중치 공유가 성능 향상에 기여하는 것과는 상반된 결과다. 이러한 현상은 지상 뷰와 위성 뷰의 시각적 통계가 근본적으로 매우 이질적이기 때문에 발생한 것으로 분석된다. 지상 뷰는 수평적 구조와 폐색이, 위성 뷰는 수직적 텍스처와 배치가 지배적이다. 이러한 두 도메인을 하나의 공유된 ‘시각적 단어 사전’(공유 NetVLAD 클러스터)으로 동시에 표현하려는 시도는 오히려 각 뷰의 고유한 표현력을 저해하는 결과를 낳은 것이다. 각 뷰가 자신만의 ’언어’로 장면을 요약한 뒤, 최종적으로 번역된 결과물인 전역 디스크립터를 비교하는 CVM-Net-I의 방식이 더 효과적이었음을 시사한다.

3. 부: 핵심 혁신 - 가중 소프트 마진 랭킹 손실 함수

3.1 배경: 메트릭 러닝과 Triplet 손실의 한계

메트릭 러닝의 성공은 손실 함수 설계에 크게 의존한다. 가장 널리 사용되는 손실 함수 중 하나는 Triplet 손실로, 앵커(anchor) 이미지, 긍정(positive) 이미지, 부정(negative) 이미지로 구성된 세 쌍을 이용한다. 손실 함수의 목표는 앵커와 긍정 쌍 사이의 거리(d_{pos})는 최소화하고, 앵커와 부정 쌍 사이의 거리(d_{neg})는 최대화하는 것이다.3

전통적인 최대 마진(max-margin) Triplet 손실은 L = \max(0, m + d_{pos} - d_{neg}) 형태로, 긍정 쌍과 부정 쌍의 거리 차이가 최소한 마진 m 이상이 되도록 강제한다. 하지만 이 방식은 최적의 마진 m 값을 찾기 위해 신중한 튜닝이 필요하다는 단점이 있다. 이를 보완하기 위해 제안된 소프트 마진(soft-margin) 손실 L = \ln(1 + e^{d_{pos} - d_{neg}})은 마진 하이퍼파라미터가 없지만, 수렴 속도가 느리다는 문제가 지적되었다.3

3.2 가중 소프트 마진 랭킹 손실 (Weighted Soft Margin Ranking Loss)의 도입

CVM-Net은 기존 Triplet 손실의 한계를 극복하고 수렴 속도와 최종 정확도를 동시에 개선하기 위해 ’가중 소프트 마진 랭킹 손실’이라는 새로운 손실 함수를 제안했다.3

이 손실 함수의 수식은 다음과 같다. 여기서 d = d_{pos} - d_{neg}이다.

L_{weighted} = \ln(1 + e^{\alpha d})
핵심은 스케일링 계수 \alpha의 도입이다. \alpha > 1로 설정하면, 손실 함수의 기울기가 \alpha에 비례하여 커진다. 이는 모델이 잘못 분류한 쌍(즉, d > 0인 경우, 긍정 쌍이 부정 쌍보다 더 멀리 있는 경우)에 대해 더 큰 그래디언트를 발생시킨다. 결과적으로, 네트워크는 학습하기 어려운 ’어려운 샘플(hard sample)’에 더 집중하게 되어 가중치를 더 빠르고 효과적으로 업데이트할 수 있다.3

이러한 접근은 단순한 스케일링을 넘어, ’온라인 하드 샘플 마이닝(Online Hard Sample Mining)’의 효과를 손실 함수 자체에 내재화하려는 시도로 해석될 수 있다. 학습 과정에서 명시적으로 어려운 샘플을 찾아 배치(batch)를 구성하는 복잡한 과정 대신, 손실 함수가 자연스럽게 어려운 샘플(즉, 손실 값이 큰 샘플)에 더 큰 가중치를 부여하도록 설계한 것이다. 이는 후속 연구들에서 등장하는 정교한 샘플링 전략 2이나 손실 함수 8의 초기 형태로 볼 수 있으며, CVGL 분야에서 손실 함수 엔지니어링의 중요성을 부각시킨 중요한 기여다.

3.3 Quadruplet 손실로의 확장

제안된 가중치 개념은 Triplet 손실보다 더 정교한 임베딩 공간 학습을 목표로 하는 Quadruplet 손실에도 쉽게 확장 적용될 수 있다. Quadruplet 손실은 긍정 쌍과 부정 쌍 간의 상대적 거리뿐만 아니라, 관련 없는 두 부정 샘플 간의 거리도 고려한다. 가중 Quadruplet 손실은 다음과 같이 표현된다.3

L_{quad,weighted} = \ln(1 + e^{\alpha(d_{pos}-d_{neg})}) + \ln(1 + e^{\alpha(d_{pos}-d_{neg}^{*})})
여기서 d_{neg}^{*}는 앵커와 관련 없는 또 다른 부정 샘플과의 거리다. 이처럼 가중 소프트 마진 컴포넌트는 다양한 메트릭 러닝 손실 함수에 유연하게 통합될 수 있는 일반성을 가진다.

4. 부: 성능 검증 및 분석

4.1 실험 환경

CVM-Net의 성능은 두 개의 대규모 공개 벤치마크 데이터셋에서 검증되었다.

  • 데이터셋: CVUSA 데이터셋은 35,532개의 훈련용 이미지 쌍과 8,884개의 테스트용 이미지 쌍으로 구성되어 있으며, 모든 지상 이미지는 파노라마 형태다.3 CVACT 데이터셋(이전 Vo and Hays 데이터셋)은 여러 도시의 이미지로 구성되며, 특정 도시(덴버)를 테스트용으로 분리하여 모델의 일반화 성능을 평가한다.3

  • 평가 지표: 핵심 평가 지표는 recall@k, 특히 상위 1% 내 재현율(recall@1%)이다. 이는 주어진 쿼리 지상 이미지에 대해, 데이터베이스에서 가장 유사한 위성 이미지 후보를 상위 1%까지 검색했을 때, 그 안에 실제 정답 위성 이미지가 포함될 확률을 의미한다.3

4.2 SOTA 모델과의 성능 비교

CVM-Net은 제안 당시의 최첨단(SOTA) 모델들을 압도하는 성능을 기록하며 CVGL 분야의 새로운 기준을 제시했다.

모델CVUSA (Panorama) Recall@1%CVACT (Cropped) Recall@1%
Siamese (VGG)9.9%1.3%
Workman et al.34.3%15.4%
Vo and Hays63.7%59.9%
CVM-Net-II87.2%66.6%
CVM-Net-I91.4%67.9%

표의 데이터는 3를 기반으로 재구성됨.

위 표에서 볼 수 있듯이, CVUSA 데이터셋에서 CVM-Net-I은 91.4%의 recall@1%를 달성하여, 이전 SOTA였던 Vo and Hays의 63.7% 대비 약 27.7%p라는 비약적인 성능 향상을 이루었다.3 이러한 결과는 NetVLAD를 통한 시점 불변 전역 디스크립터 생성 방식이 극심한 시점 차이 문제 해결에 매우 효과적임을 실험적으로 입증한 것이다.

4.3 심층 분석 (Ablation Study)

논문에서는 다양한 요소들이 성능에 미치는 영향을 분석하기 위한 심층 분석을 수행했다.

  • 백본 네트워크: 더 깊은 네트워크인 VGG16을 백본으로 사용했을 때가 AlexNet보다 일관되게 높은 성능을 보였다. 이는 더 풍부하고 고품질의 지역 특징 표현이 최종 성능에 긍정적인 영향을 미침을 시사한다.3

  • 아키텍처 (I vs. II): 모든 실험 조건에서 CVM-Net-I이 CVM-Net-II보다 우수한 성능을 보여, 이질적인 두 뷰에 대한 NetVLAD 가중치 공유가 불필요하거나 오히려 성능에 해가 될 수 있음을 재확인했다.3

  • 손실 함수: 제안된 가중 소프트 마진 랭킹 손실은 기존의 Triplet, Quadruplet, Contrastive 손실 함수들보다 더 빠르고 높은 정확도로 수렴하는 경향을 보였다.3

특히 주목할 만한 실험은 ‘방해 이미지(distractor images)’ 추가 실험이다. 연구진은 기존 테스트 데이터베이스(미국 위성 이미지 8,884개)에 전혀 다른 지역인 싱가포르의 위성 이미지 15,643개를 추가하여 데이터베이스의 크기와 복잡성을 높였다. 그럼에도 불구하고 CVM-Net의 성능 저하는 미미한 수준에 그쳤다.3 이는 CVM-Net이 학습한 임베딩 공간이 단순히 저수준의 시각적 유사성(예: 색상, 텍스처)을 넘어, ‘도로의 배치’, ‘건물의 밀도’, ’녹지 분포’와 같은 더 높은 수준의 의미론적, 구조적 정보를 인코딩했음을 시사한다. 이러한 정보는 다른 도시의 이미지와는 명확히 구분되는 고유한 ‘지리적 지문(geographic fingerprint)’ 역할을 하므로, 시각적으로 유사해 보이는 방해 이미지가 대량 추가되어도 정답을 강건하게 찾아낼 수 있었던 것이다. 이 실험은 CVM-Net의 성능이 단순한 템플릿 매칭을 넘어, 진정한 의미의 ‘장소 인식(place recognition)’ 능력을 갖추었음을 보여주는 강력한 증거다.

5. 부: CVM-Net의 유산과 그 너머

5.1 CVM-Net의 기여와 한계

CVM-Net은 CVGL 연구 역사에서 중요한 이정표를 세웠다. NetVLAD를 도입하여 시점 불변적인 전역 디스크립터를 효과적으로 학습하는 방법을 제시했으며, 가중 소프트 마진 랭킹 손실을 통해 메트릭 러닝의 학습 효율과 성능을 크게 개선했다.3 이로써 CVM-Net은 후속 연구들이 비교 기준으로 삼는 강력한 베이스라인이 되었다.2

하지만 CVM-Net의 성공은 동시에 그 아키텍처의 내재적 한계를 드러내는 계기가 되었다.

  1. 공간적 정보 손실 (Loss of Spatial Layout): NetVLAD는 여러 지역 특징 벡터들을 하나의 전역 디스크립터로 ’집계(aggregate)’하는 과정에서, 특징들 간의 상대적인 공간적 배치 정보를 필연적으로 파괴한다. 인간이 “A 건물 옆에 B 공원이 있다“와 같이 객체 간의 공간적 관계를 통해 위치를 파악하는 것과 대조적으로, CVM-Net은 이러한 중요한 단서를 활용하지 못했다.10

  2. 암묵적인 도메인 갭 처리 (Implicit Domain Gap Handling): CVM-Net은 두 뷰를 동일한 임베딩 공간으로 매핑함으로써 도메인 갭을 암묵적으로 다루지만, 두 도메인 간의 기하학적, 외형적 차이를 명시적으로 모델링하지는 않는다. 이는 최적의 특징 정렬(feature alignment)을 방해하는 요인으로 남았다.10

5.2 후속 연구들의 비판적 계승

CVM-Net이 남긴 과제들은 후속 연구들에게 새로운 방향을 제시하는 원동력이 되었다.

  • CVFT (Cross-View Feature Transport, 2020): 이 연구는 CVM-Net의 ’공간 정보 손실’과 ‘도메인 갭’ 문제를 정면으로 다룬다.10 CVFT는 최적 수송 이론(Optimal Transport)에 기반하여, 지상 뷰의 특징 맵을 위성 뷰의 좌표계로 ’전송(transport)’하는 미분 가능한 레이어를 제안했다. 이를 통해 두 뷰의 특징들을 공간적으로 정렬하여 직접 비교함으로써, CVM-Net 대비 성능을 대폭 향상시켰다.10

  • TransGeo (Transformer-based approach, 2022): 트랜스포머 아키텍처의 등장은 CVGL 분야에 새로운 패러다임을 가져왔다.12 TransGeo는 CNN의 지역적 수용장(local receptive field) 한계를 비판하며, 셀프 어텐션(self-attention) 메커니즘을 통해 이미지 전체의 전역적 상관관계를 모델링했다. 또한, 명시적인 위치 인코딩(positional encoding)을 통해 CVM-Net과 CVFT가 해결하고자 했던 공간 정보 문제를 보다 근본적인 방식으로 다루었다. 특히, 기존 CNN 기반 방법들이 흔히 의존하던 극좌표 변환(polar transform)과 같은 복잡한 전처리 없이도 더 높은 성능을 달성하여 효율성을 입증했다.12

이러한 기술 발전의 흐름은 마치 변증법적 과정과 같다. CVM-Net이 ’전역 디스크립터를 통한 시점 불변성 확보’라는 **정립(Thesis)**을 제시하자, CVFT는 그 과정에서 발생하는 ’공간 정보 손실’을 비판하며 ’공간적 정렬’이라는 **반정립(Anti-thesis)**을 내세웠다. 그리고 TransGeo는 트랜스포머 아키텍처를 통해 ’집계’와 ’정렬’의 문제를 아키텍처 자체에 내재된 전역적 관계 및 위치 정보 모델링 능력으로 통합하는 **종합(Synthesis)**을 이루어냈다. 결국 CVM-Net의 한계는 기술적 결함을 넘어, 후속 연구들이 더 근본적인 문제에 대해 고민하게 만드는 ’생산적인 과제’였으며, CVGL 분야 전체를 한 단계 발전시키는 계기가 되었다.

5.3 현대 CVGL 연구 동향

CVM-Net 이후 CVGL 분야는 지속적으로 발전하고 있다.

모델 (연도)핵심 기술CVUSA Recall@1%
CVM-Net (2018)CNN + NetVLAD91.4% (논문 자체 보고) / 22.47% (CVFT 논문 재현)
CVFT (2020)Optimal Feature Transport61.43%
TransGeo (2022)Vision Transformer~94%
ArcGeo (2024)Angular Margin Loss, Large-scale Pretraining~96.06%

성능 수치는 각 논문에서 보고된 값으로, 실험 설정에 따라 다를 수 있음.3 CVM-Net의 성능은 후속 논문에서 더 낮은 수치로 재현되기도 함.

최신 연구들은 다음과 같은 방향으로 나아가고 있다.

  • 대규모, 다양성 데이터셋: 초기 데이터셋의 지역적 한계를 넘어, CV-Cities와 같이 전 세계 여러 도시의 다양한 환경을 포함하는 대규모 데이터셋이 구축되어 모델의 일반화 성능을 극한으로 시험하고 있다.2

  • 새로운 손실 함수와 샘플링: 대칭적 InfoNCE 손실 2, 배치-전체 각도 마진 손실(batch-all angular margin loss) 7 등 더 정교한 손실 함수와 샘플링 전략이 제안되고 있다.

  • 현실적 제약 조건: 파노라마 이미지가 아닌, 일반 차량용 카메라와 같은 제한된 화각(Limited Field-of-View, FoV) 이미지에서의 위치 추정 문제가 중요한 연구 주제로 부상하고 있다.7

6. 부: 결론

CVM-Net은 극심한 시점 차이라는 교차 시점 지리적 위치 추정(CVGL)의 핵심 난제를 해결하기 위해, 딥 메트릭 러닝 프레임워크 내에서 NetVLAD를 활용한 강건한 전역 디스크립터 생성과 효율적인 가중 손실 함수를 성공적으로 결합한 선구적인 연구였다.

CVM-Net은 당시 최고의 성능을 달성하며 CVGL 연구의 중요한 이정표를 세웠고, 후속 연구들을 위한 견고한 토대를 마련했다. 동시에, 전역 집계 과정에서 발생하는 공간 정보 손실이라는 내재적 한계를 통해 CVFT와 TransGeo 같은 후속 연구들이 나아갈 방향을 명확히 제시했다.

따라서 CVM-Net은 CVGL 기술 발전사에서 CNN 기반 접근법의 정점을 보여주는 동시에, 트랜스포머 기반의 새로운 패러다임으로 전환되는 계기를 마련한 ’중요한 가교’로서 그 역사적, 기술적 의의를 평가받아야 한다. 이 모델은 CVGL 분야가 단순한 특징 매칭을 넘어, 복잡한 시각적 추론의 영역으로 나아가는 데 결정적인 역할을 수행했다.

7. 참고 자료

  1. VAGeo: View-specific Attention for Cross-View Object Geo-Localization - arXiv, https://arxiv.org/pdf/2501.07194
  2. CV-Cities: Advancing Cross-View Geo-Localization in Global Cities - arXiv, https://arxiv.org/html/2411.12431v1
  3. CVM-Net: Cross-View Matching Network for Image-Based Ground-to-Aerial Geo-Localization - CVF Open Access, https://openaccess.thecvf.com/content_cvpr_2018/papers/Hu_CVM-Net_Cross-View_Matching_CVPR_2018_paper.pdf
  4. CV-Cities: Advancing Cross-View Geo-Localization in Global Cities - ResearchGate, https://www.researchgate.net/publication/385971742_CV-Cities_Advancing_Cross-View_Geo-Localization_in_Global_Cities
  5. Cross-view geo-localization: a survey - arXiv, https://arxiv.org/html/2406.09722v1
  6. [2408.05475] Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network, https://arxiv.org/abs/2408.05475
  7. ArcGeo: Localizing Limited Field-of-View Images Using Cross-View Matching - CVF Open Access, https://openaccess.thecvf.com/content/WACV2024/papers/Shugaev_ArcGeo_Localizing_Limited_Field-of-View_Images_Using_Cross-View_Matching_WACV_2024_paper.pdf
  8. CVM-Net: Cross-View Matching Network for Image-Based Ground-to-Aerial Geo-Localization - Semantic Scholar, https://www.semanticscholar.org/paper/CVM-Net%3A-Cross-View-Matching-Network-for-Hu-Feng/f7585d0c4eb361c49de21a84d3e7c66b12991a1f
  9. BEV-CV: Birds-Eye-View Transform for Cross-View Geo … - alphaXiv, https://www.alphaxiv.org/overview/2312.15363v2
  10. Optimal Feature Transport for Cross-View Image Geo … - AAAI, https://cdn.aaai.org/ojs/6875/6875-13-10104-1-10-20200525.pdf
  11. [1907.05021] Optimal Feature Transport for Cross-View Image Geo-Localization - arXiv, https://arxiv.org/abs/1907.05021
  12. TransGeo: Transformer Is All You Need for … - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2022/papers/Zhu_TransGeo_Transformer_Is_All_You_Need_for_Cross-View_Image_Geo-Localization_CVPR_2022_paper.pdf
  13. TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization | Request PDF - ResearchGate, https://www.researchgate.net/publication/359709594_TransGeo_Transformer_Is_All_You_Need_for_Cross-view_Image_Geo-localization
  14. [2204.00097] TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization, https://arxiv.org/abs/2204.00097
  15. TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization Supplementary Material - CVF Open Access, https://openaccess.thecvf.com/content/CVPR2022/supplemental/Zhu_TransGeo_Transformer_Is_CVPR_2022_supplemental.pdf
  16. BEV-CV: Birds-Eye-View Transform for Cross-View Geo-Localisation - arXiv, https://arxiv.org/html/2312.15363v1